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Целью данной работы является изучение влияния загруженно- 
сти вычислительных ядер графического процессора и шаблона 
обращения к памяти на пропускную способность шины памя- 
ти и ускорение масштабирования. Предмет исследования — 
задача масштабируемости производительности параллельных 
вычислений и их ускорение. В ходе работы была проверена 
следующая гипотеза: при обработке изображений для мно- 
гоядерных систем с общей памятью закон Густафсона — Бар- 
сиса более важен, нежели шаблон обращения к памяти при 
недостаточной загруженности вычислительных ядер графиче- 
ского процессора. Методология проведения исследования — 
вычислительный эксперимент с последующим анализом по- 
лученных данных. В ходе исследования подтверждена выдви- 
нутая гипотеза. Для этого был проведен ряд экспериментов на 
различных гетерогенных вычислительных системах с под- 
держкой стандарта ОрепСГ. Анализ результатов позволяет 
сделать следующие выводы. Шаблон доступа к памяти начи- 
нает накладывать ограничения на производительность алго- 
ритма только при достаточной загруженности вычислитель- 
ных ядер. Видеокарты, оснащенные собственной памятью, 
показывают более стабильные результаты работы по сравне- 
нию с теми, что используют память, общую с центральным 
процессором. 

Область применения полученных данных — разработка алго- 
ритмов и программного обеспечения для высокопараллельных 
вычислительных систем. 
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Введение. В настоящее время признано, что графические процессоры (этарШса! ргосеззте ип — СОРИ) явля- 
ются мощным инструментом решения задач, хорошо поддающихся распараллеливанию (Сепега]-ригрозе сотрийпе Ююг 
этарЫс$ ргосеззт® ип, СРОРУ — неспециализированные вычисления на графических процессорах). Однако лишь 


малая часть существующего программного обеспечения эффективно использует мощности графических процессоров. 
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В качестве причин могут быть названы относительная новизна (широкое распространение технологии ОРСРОИ полу- 
чили в 2008—2010 гг.) и существенное архитектурное отличие от процессоров приложений (большее количество ядер, 
малый суммарный объем кэш-памяти). 

Вопросу оптимизации алгоритмов для СРО посвящено немало руководств по программированию от ведущих 
производителей видеокарт. Среди них можно отметить документы от Му а [1], АМО [2] и АВМ [3]. Во всех пере- 
численных источниках организация доступа потоков графического процессора к памяти представлена как важный 
аспект в достижении высокой производительности многоядерных систем. Однако в периодической научной литерату- 
ре авторам не удалось найти работы, систематически исследующие, каким образом на производительность систем 
влияет шаблон доступа к памяти различных систем с графическими процессорами. Ранее влияние операций обмена 
информацией при обращении к памяти и при межпроцессорных пересылках рассматривались в работах [4—6]. 

В руководствах в общих чертах сказано о том, что доступ к памяти нужно организовывать определенным об- 
разом — так, чтобы соседние потоки обращались к соседним ячейкам памяти [1]. Желательно, чтобы при этом ис- 
пользовались векторные операции чтения/записи [2, 3]. На практике это не всегда возможно по ряду причин (шаблон 
доступа жестко задан алгоритмом, используется структура данных в формате изображения, которая не позволяет ор- 
ганизовать такое обращение к оперативной памяти, ит. п.). 

В этой связи интересно выяснить, на какой уровень производительности можно рассчитывать при обработке 
изображений с использованием различных шаблонов доступа, необходимых, чтобы определить, насколько «неудач- 
ный» шаблон может снизить скорость работы алгоритма. Также важно ответить на вопрос: является ли доступ к памя- 
ти тем фактором, который ограничивает производительность алгоритма в первую очередь? Помимо вышеперечислен- 
ного интерес представляет проведение экспериментов на компьютерах, в которых центральный и графический про- 
цессоры используют физически общую память, поскольку в данном случае возрастает нагрузка на общий контроллер 
памяти и результаты могут быть менее предсказуемыми. 

Гипотеза. Как и для всякой вычислительной системы с массовым параллелизмом, для СРО важен закон Гу- 


стафсона — Барсиса [7, 8]: 
9, =8+@-в)р, (1) 
где 8 — доля последовательных расчетов, р — количество процессоров, 5, — ускорение масштабирования. 


В качестве модельной выберем задачу копирования изображения с различным числом потоков. Обработка 
изображений является типичной задачей для СОРИ. Выдвинем гипотезу: «Количество задействованных потоков в вы- 
числениях оказывает большее влияние на быстродействие алгоритма для СРО, нежели шаблон доступа к памяти при 
малом количестве потоков». Несмотря на кажущуюся очевидность данного утверждения, не следует забывать о том, 
что в случае неудачной организации доступа к памяти запросы могут быть сериализованы [1, 2], что приведет к уве- 
личению 8. 

Цель работы. Предполагается ответить на ряд вопросов. 

— Является ли доступ к памяти тем фактором, который ограничивает производительность алгоритмов на СРО в 
первую очередь? 

— Существует ли шаблон доступа, одинаково подходящий для большинства СРО? 

— Каков разброс результатов для видеокарт с собственной памятью и тех, что используют память из общего с СРИ 
объема? 

Экспериментальная часть. Каждый эксперимент представляет собой запуск ОрепСГ ядра, которое осу- 
ществляет копирование монохромного изображения 384х512 пикселов с 8-битным цветом. При этом используется 


уникальный шаблон доступа к памяти. 
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Ширина изображения в пикселах обозначалась у; высота изображения в пикселах — Н, количество потоков 


по оси ОХ — Тйх, количество потоков по оси ОУ — ТВу. 


Всего использовалось 9 шаблонов доступа, что дает столько же экспериментов (табл. 1). 




































































Таблица 1 
Описание экспериментов 
Шаблон Размерность Число потоков Особенности копирования пикселов потоком 
5пире ТА.=\ 196608 Копирует один пиксел 
Тру=Н 
Ко\4 Ти =У/4 49152 Векторно копирует строку из 4 пикселов 
Тиу=Н 
Ко\16 Ти.=У/16 12228 Векторно копирует строку из 16 пикселов 
Тру=Н 
СоП4. Ти =\ 49512 Поэлементно копирует столбец из 4 пикселов 
Тр,=Н/4 
Со16 ТА=\ 12228 Поэлементно копирует столбец из 16 пикселов 
Трй,=Н/б 
Ко\4х4 Ти=У\/4 12228 В цикле векторно копирует строку из 4 пикселов 
Тр,=Н/4 
Бо\16х16 Ти.=У/16 768 В цикле векторно копирует строку из 16 пикселов 
Тру=Н/6 
Со4х4 Ти=У/4 12228 В цикле поэлементно копирует столбец из 4 пикселов 
Тр,=Н/4 
Со!16х16 Ти.=И/16 768 В цикле поэлементно копирует столбец из 16 пикселов 
Ти,=Н/б 
Эксперименты проводились на четырех тестовых компьютерах (табл. 2). 
Таблица 2 
Характеристики тестовых компьютеров 
Система СРО ОРО Тип памяти СРО 
УИтдожз 8.1 Соге 15 42000 АМ Кадеоп Дискретная, 105 ООБЗ 800 МНУ, 128 БЕ 
Упдом$ 7 АМО А10-5700К 8670мМ Общая с СРИ, ООКЗ 900 МНУ?, 128 Би 
Гапах АБМ СоцехА15 АБМ Май Т624 Общая с СРО, ООКЗ 800 МБ, 64 Би 
УЛпао\з АМО Орегоп 6100 Му а Теа Дискретная, 6СЪ ООВ5 3600 МНУ?, 384 Би 
бегуег 2008 С2075 




















Тестовые ПК можно разделить на две категории: 
1) процессор и видеокарта используют общую память из объема ОЗУ; 
2) видеокарта оснащена собственной памятью. 
Это важно, потому что использование общей памяти создает дополнительную нагрузку на контроллер памяти. 
Стандарт ОрепСГ, позволяет использовать общую память и для видеокарт с дискретной памятью — в этом 
случае операции чтения/записи выполняются неявно для пользователя. Поэтому эксперименты проводились в двух 


режимах. Слева на графике (рис. 1) — вариант с использованием памяти видеокарты. Справа — вариант с использо- 


ванием общей памяти. По оси абсцисс —_ название эксперимента. 
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Рис. 1. Экспериментальные результаты для видеокарты АМО Кадеоп 8670М 


Данная видеокарта основана на ВТЗС-архитектуре ССМ [8]. При использовании памяти видеокарты пропуск- 
ная способность почти всегда высокая (около 50 % от пиковой) и всегда стабильная. При использовании разделяемой 
памяти ограничителем скорости является шина РС]-Е 2.0 Х4, к которой подключен СРО. Отчетливо видно, что при 
малом числе потоков (эксперименты Во\16х16 и Со16х16) результаты схожи, несмотря на различный шаблон досту- 
па. При этом результаты экспериментов с большим числом потоков (Во\16 и Со16) различаются более чем в 2 раза 
— следовательно, шаблон доступа к памяти в данном случае имеет значение. 

Карта Кадеоп 76600 основана на УГГ\У/-архитектуре Тегазсайе, предшествовавшей ССМ. Несмотря на боль- 
шую пиковую пропускную способность (21 Гбайт/с) по сравнению с предыдущим экспериментом, полученные ре- 
зультаты в среднем хуже и, что более важно, существенно менее стабильны. Ситуация с экспериментами Во\16, 
Со 6, Ко\16х16 и Со 16х16 в точности повторяет результаты предыдущей видеокарты (рис. 2). 
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Рис. 2. Экспериментальные результаты для видеокарты АМШО Кадеоп 76600 


МаН Т624 — видеокарта для мобильных устройств [9]. Данный СРО основан на УШМ \У-архитектуре АКМ 
М19гага. В данном случае видна сильная зависимость результата от длины векторных команд чтения/записи. С ростом 
длины команды пропускная способность также возрастает. В то же время поэлементный доступ к элементам изобра- 
жения предсказуемо медленный. Примечательно, что использование собственной или разделяемой памяти никак не 
сказывается ни на пропускной способности, ни на разбросе результатов. В данном случае шаблон доступа к памяти 
имеет гораздо большее значение, чем число потоков. Это можно объяснить тем, что видеокарта оснащена всего 8 


АГХ, и даже относительно малое число потоков загружает графический процессор (рис. 3). 


'Арзуманян Р. В. Исследование влияния шаблона доступа к глобальной памяти графического процессора 





Май Т624 
2,50 
2,00 


1,50 


т/с 


|= 1,00 


0,50 


Гба 





0,00 


Пропускная способность, 


тен 
Е ЕО 
я я ыы 


Ко\4х4 
Ко\16х16 
Со4х4 
Со 6х16 
$ппре 
Ком4 
Ко\16 
Со14 

Со 6 
Ко\4х4 
Ко\16х16 
Со 6х16 


Рис. 3. Экспериментальные результаты для видеокарты АВМ Май Т624 


Теа С2075 — это флагманский ускоритель вычислений М№у1а на архитектуре Еегии [10]. Данная карта обо- 
рудована 6 Гб собственной памяти. По результатам экспериментов можно сделать вывод о том, что объем задачи не- 
достаточен для такого мощного решения, т. к. максимальная достигнутая пропускная способность составляет всего 
12 % от пиковой. Использование собственной или разделяемой памяти никак не отразилось на результатах, потому 
что ускоритель подключен через шину РС!-Е 2.0 Х16, которая не является сдерживающим фактором. В данном экспе- 
рименте шаблон доступа к памяти также становится важен при большом числе потоков (эксперименты Ко\4 и Со!4). 
При меньшем числе потоков (эксперименты Ко\16х16 и Со!16х16) шаблон доступа оказывает не такое большое вли- 


яние на производительность (рис. 4). 
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Рис. 4. Экспериментальные результаты для видеокарты Му а Тез1а С2075 


Выводы. По результатам проведенных экспериментов можно сделать вывод о том, что для тестовых систем 
высказанная гипотеза является справедливой —Ща именно, шаблон доступа к памяти начинает накладывать ограниче- 
ния на производительность алгоритма только при достаточно большом количестве запущенных потоков. 

В ходе экспериментов не найден метод, который показывал бы одинаково хороший результат на всех проте- 
стированных системах, несмотря даже на малое их количество. 

Видеокарты, оснащенные собственной памятью, предсказуемо показывают более стабильные результаты ра- 
боты, но при этом накладывают ограничения на совместное использование данных центральным и графическим про- 
цессорами. Напротив, видеокарты, использующие общую с центральным процессором память, могут сохранять ста- 


бильность результатов при использовании общей памяти, а также давать больший разброс показателей. 
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